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fi 要 : [目的 /意义 ] 科技 资源 深度 融合 背景 下 ,学 术 图 表 知 识 发 现 是 提供 除 文 本 知识 发 现 外 新 的 知识 发 现 方式 ,是 完善 


文献 知识 发 现 的 重要 一 环 ,可 提升 科研 人 员 科 学 发 现 及 知识 创造 效能 ,推动 数字 图 书馆 知识 服务 升级 。 


[方法 /过 


程 ] 梳 理学 术 图 表 知 识 发 现 的 演进 脉络 ,详细 论证 其 技术 框架 内 容 , 证 明 学 术 图 表 知 识 发 现 技术 逐步 成 熟 。 结 合 


学 术 图 表 知 识 发 现 应 用 服务 ,论证 学 术 图 表 知 识 发 现在 科技 创新 多 方面 有 广阔 应 用 空间 。[ 结果 / 


结论 ] 展 望 学 术 


图 表 知 识 发 现 未 来 ,我 们 需要 :重视 学 术 图 表 知识 发 现 ,将 其 融入 文献 知识 发 现 体系 内 ;完善 学 术 图 表 语义 知识 组 
织 体系 ,构建 专门 的 学 术 图 表 语 义 知识 库 ;开发 新 型 学 术 图 表 知 识 发 现 应 用 。 


REA: 学 术 图 表 MRAM ”知识 组 织 
AES. 254 


: 10. 13266/j. issn. 0252 —3116. 2021. 23. 015 


信息 抽取 


现形 式 多 样 信息 抽取 复杂 等 因素 ,机 器 理解 学 术 图 表 


科技 信息 资源 深度 融合 背景 下 ,全 新 的 数据 密集 
学 发 现成 为 科技 创新 生态 。 人 工 智 能 及 深度 学 习 
技 肃 取得 突破 性 进展 ,这 给 支撑 新 生态 的 知识 发 现 服 
詹 齐 来 新 变革 和 新 要 求 。 数 字 图 书馆 领域 中 ,以 文献 
AREMA 心 的 知识 发 现 服务 转向 对 象 多 源 异 构 、 
PPA SADE 跨 类 型 语义 关联 机 器 可 理解 及 机 器 
ABUS 的 趋势 愈 发 明显 ,以 学 术 文 本 为 中 心 的 传统 
知识 发 现 面 临 异 构 载 体 及 新 服务 挑战 。 学 术 图 表 是 科 
53 献 中 用 于 内 容 描 述 ,论点 支撑 、 数 据 对 比 的 各 类 图 
表 数 字 对 象 。 N. Siegel 采集 分 析 arXiv 和 PubMed 中 
550 万 篇 科技 文献 发 现 arXiv 的 PDF 论文 仅 20% 没有 
学 术 图 表 , 而 PubMed 的 XML 文件 仅 10% 没有 学 术 图 
表 '"。 生 物 医 学 领域 ,几乎 每 篇 期 刊 文献 都 包含 学 术 
图 表 , 它 们 比 任 何 类 型 信息 更 能 代表 医学 文献 中 的 证 
据 内 容 ”。 相 关 研 究 发 现 学 术 图 表 提 供 比 文本 更 多 的 
信息 ,利用 学 术 图 表 能 有 效 提高 用 户 发 现 文献 的 效 
RDI, P. Lee 发 现 影响 力 越 大 的 论文 往往 包含 更 多 学 
术 图 表 '“"。 学 术 图 表 支 撑 科 研 再 利用 ,解释 文献 重要 
研究 内 容 ,是 科技 文献 资源 与 科技 数据 资源 融合 交叉 
点 ,是 科研 人 员 重 视 的 科技 知识 载体 。 
长 期 以 来 ,由 于 学 术 图 表 视 觉 与 文本 特征 共存 、 表 


停留 在 弱 语 义 层次 ,致使 学 术 图 表 难 以 有 效 融 入 现 有 
文献 知识 发 现 体系 内 。 未 来 学 术 知 识 服务 体系 需要 细 
粒度 知识 组 织 .基于 语义 的 知识 关联 .面向 全 类 型 资源 
的 知识 发 现 以 及 能 有 效 支 持 智 能 问答 、 意 图 精准 刻画 
的 认 知 计算 。 作 为 典型 异 构 学 术 对 象 ,研究 学 术 图 表 
知识 发 现 对 完善 文献 知识 发 现 体系 、 推 动 科技 资源 深 
度 融合 .促进 非 文本 型 数据 知识 发 现 ` 创 新 数字 图 书馆 
知识 服务 有 积极 意义 ,也 十 分 必要 且 和 迫切 。 

本 文 以 “图 像 表格 “信息 抽取 ”科技 文献 论文 "为 
核心 检索 词 ,并 扩展 “图 像 识 别 表格 识别 “图 像 标注 K 
格 标注 “知识 发 现 “ 命 名 实体 识别 “图 表 关 系 抽取 ”等 
相关 概念 ,分 别 在 Web of Science Scopus 及 CNKI 数据 库 
中 进行 主题 检索 ,数据 检索 时 间 截 止 到 2021 年 8 月 。 基 
于 文摘 阅读 得 除 不 相关 论文 ,确定 密切 相关 文献 85 篇 。 
在 此 基础 上 ,基于 参考 文献 扩展 相关 文献 135 篇 ,共同 形 
成 本 文 的 研究 基础 。 本 文 梳理 学 术 图 表 知 识 发 现 演进 脉 
络 ,并 以 技术 框架 及 流程 为 骨架 综述 各 技术 点 的 研究 分 文 
及 进展 ,最 后 展望 学 术 图 表 知识 发 现下 一 步 研究 。 


2 学 术 图 表 知识 发 现 演进 脉络 


学 术 图 表 发 现 经 历 对 象 发 现 到 知识 发 现 的 演变 
对 象 发 现 是 指 从 科技 文献 中 抽取 .组 织 .检索 发 现 学 术 


* 本 文系 广东 省 哲学 社会 科学 规划 学 科 共 建 项 目 “ 支 持 深度 知识 发 现 的 文 内 数据 与 文献 关联 研究 "(项 目 编号 :GD18XTS07 ) 研究 成 果 之 一 。 
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图 表 的 过 程 。 学 术 图 表 对 象 发 现 义 经 历 学 术 图 表 对 象 
的 简单 发 现 一 一 学 术 图 表 对 象 关联 文献 发 现 一 一 学 术 
图 表 对 象 的 多 维 发 现 三 个 阶段 :中 学 术 图 表 对 象 的 简 
单 发 现 阶段 ,学 者 们 关注 如 何 从 科技 文献 内 提取 出 单 
一 的 学 术 图 或 学 术 表 ,并 采用 元 数据 方式 组 织 学 术 图 
表 的 简单 信息 ,提供 基于 关键 词 的 学 术 图 表 发 现 ;@) 学 
术 图 表 对 象 关联 文献 发 现 阶段 ,在 前 期 研究 基础 上 , 研 
究 者 们 将 学 术 图 表 上 下 文 内 容 也 作为 学 术 图 表 发 现 的 
重要 信息 来 源 ,建立 学 术 图 表 和 所 在 文献 的 关联 ,尝试 
将 学 术 图 表 融 入 科技 文献 发 现 系统 中 。 与 此 同时 ,这 


一 时 期 学 术 图 像 分 类 研究 大 量 涌 现 ,学 术 图 像 分 类 组 
织 成 为 此 阶段 新 的 特色 ;@@ 学 术 图 表 对 象 的 多 维 发 现 
阶段 ,部 分 大 型 数字 资源 商 ( 如 Pubmed , CNKT) 参与 到 
学 术 图 表 对 象 发 现 , 他 们 探索 更 多 的 发 现 方式 ,如 利用 
学 术 图 像 的 图 像 特征 实现 图 - 图 发 现 ,尝试 利用 自然 
语言 处 理 技术 、 机 器 学 习 算 法 等 自动 化 抽取 学 术 图 表 、 
学 术 图 表 文 本 内 容 及 学 术 图 表 所 在 文献 的 元 数据 来 解 
决 海量 学 术 图 表 信 息 发 现 , 尝 试 引 入 语义 知识 组 织 体 
系 (如 主题 词 表 ) 来 实现 语义 扩展 发 现 。 表 1 总 结 了 学 
术 图 表 对 象 发 现 不 同 阶 段 的 相关 研究 与 实践 : 


R1 学 术 图 表 对 象 发 现 不 同 阶段 的 相关 研究 与 实践 


—— "E a 、 SANTIREN 实践 时 间 

不 同 阶段 发 现 内 容 主要 应 用 技术 组 织 方式 发 现 方式 相关 研究 及 实践 ph 
:图 表 对 象 的 。 学 术 图 表 标题 ,注释 ,学 术 表 。 学 术 图 表 对 象 获取 元 数据 组 织 关键 词 发 现 TINTIN! 1997 
fn] £P SU RE .学 术 图 像 图 例 KAR FigSearch 61 2004 
术 图 表 对 象 关 ”学 术 图 表 标 题 . 注 释 .文献 标 学术 图 表 对 象 获取 ”元 数据 组 织 /图 表 。 关键 词 发 现 /图 表 CSA llustrata 7) 2006 
REIN 题 .学 术 图 表 上 下 文 .学 术 图 ”及 文本 获取 /人 工 标 ” 分 类 组 织 类 型 发 现 TableSeer[®] 2007 
像 类 型 注 Yale Image Finder!?! 2008 
Ë ES KO RI PRATER AREA “学 术 图 表 对 象 获取 ”元 数据 组 织 / 图 表 ”关键 词 发 现 /图 表 ^— Biomedical Figure Search L9 2010 
& 发 现 REP MARA BREE 及 文本 获取 /人 工 标 ”分 类 组 织 /主题 词 ”类 型 发 现 / 主 题词 Pubmed Cenuali!!l 2011 
术 图 表 主题 文献 标题 作者、 注 /图 像 自动 分 类 / 发 现 Me 2011 
er 相似 学 术 图 表 文本 自动 标注 Open _ill 2014 
© FigureSeer! 14] 2016 

ON 对 象 发 现 一 定 程度 上 满足 科研 人 员 查找 非 文本 型 | 和 科技 文献 文本 。 通 过 挖 据 学 术 图 表 中 的 显 性 及 隐 性 


次 泣 资源 的 需求 ,但 其 仅 揭示 学 术 图 表 的 显 性 信息 ,并 
未 咀 别 和 揭示 学 术 图 表 内 隐藏 的 其 他 知识 。 此 外 在 对 


发 现 中 ,学术 图 表 与 文本 发 现 割 离 ,不 利于 两 者 知识 
Hi 


pm 


Hg. mim. EER, WL as SY D. OC AS TR EE 
are 
HE: 


技术 .语义 组 织 技术 快速 发 展 与 成 熟 ,学 术 图 表 发 现 
ee 
识 丽 学 术 图 表 知识 。 

知识 发 现 (Knowledge Discovery in Database, KDD) 
是 基于 数据 库 的 知识 发 现 , 它 是 从 数据 中 识别 出 有 效 
的 新颖 的 ,潜在 有 用 的 .最 终 可 理解 的 模式 的 非 平凡 
过 程 ”。 学 术 图 表 知 识 发 现 是 从 海量 文献 内 海量 学 
术 图 表 数 据 中 自动 构建 .发 现 新 的 知识 模式 的 过 程 。 
这 一 过 程 并 非 是 人 工 演绎 .归纳 和 推理 过 程 ,而 是 机 器 
学 习 过 程 。 学 术 图 表 存在 着 文本 信息 表示 和 视觉 信息 
表示 的 双 模 态 特征 , 它 的 双 模 态 意味 着 学 术 图 表 知识 
发 现 需要 统计 学 的 机 器 学 习 算 法 .强大 的 数据 库 技术 
支持 .融合 语言 学 词汇 及 句法 特征 处 理 文本 和 训练 知 
识 模式 、 以 及 基于 机 器 视觉 识别 挖 气 学 术 图 表 视 觉 特 
征 中 隐藏 的 知识 模式 。 

相 比 于 学 术 图 表 对 象 发 现 ,学 术 图 表 知识 发 现在 三 
方面 突破 :首先 ,学 术 图 表 知 识 发 现 不 再 割裂 学 术 图 表 


知识 ,并 基于 数字 知识 模式 表示 消除 学 术 图 表 和 学 术 文 
本 间 的 模 态 隔 闵 ,学 术 图 表 知 识 发 现实 现 知识 层面 上 的 
跨 模 态 发 现 。 计 算 机 真正 将 学 术 图 表 理 解 为 科技 文献 
的 知识 组 成 部 分 ;其 次 ,知识 发 现 面向 海量 数据 处 理 ， 
此 自然 语言 处 理 , 图 像 自动 分 类 文本 自动 分 类 自动 语 
义 标 注 、 信 息 抽 取 等 技术 是 学 术 图 表 知 识 发 现 的 重要 文 
撑 。 语 义 知识 组 织 是 学 术 图 表 知识 发 现 的 主要 组 织 方 
式 , 协 助 多 源 异 构 系 统 检 索 和 细 粒 度 内 容 发 现 ;第 三 ， 
识 模式 发 现 是 学 术 图 表 知 识 发 现 的 重心 。 学 术 图 表 知 
识 发 现 将 在 本 体 等 领域 知识 组 织 体系 和 人 工 标注 语 料 
的 基础 上 ,融合 视觉 对 象 识别 .术语 抽取 、 语 义 标注 . 关 
系 抽 取 等 技术 ,对 复杂 知识 实施 自动 抽取 及 建 模 。 
3 学术 图 表 知识 发 现 技 术 框 架 

知识 发 现 具 有 流程 化 特点 。 文 本 知识 发 现 技 术 框 
架 包 括 自 由 文本 预 处 理 ,文本 表示 和 编码 文本 分 类 或 
FEE 信息 抽取 /知识 抽取 4 个 部 分 。 学 术 图 表 知 识 发 
现 同样 由 数 个 关键 技术 节点 构成 组 成 技术 框架 。 基 于 
知识 发 现 基本 流程 ,结合 学 术 图 表 自 身 特性 ,确定 学 术 
图 表 知识 发 现 的 4 ARERR A: FREAR RA 
文本 的 识别 与 获取 学 术 图 表 信 息 表示 与 建 模 学术 图 
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表 分 类 和 文本 分 类 ,学 术 图 表 信息 抽取 。 图 1 展示 了 | 各 技术 点 的 流程 关系 : 


.| 科技 文献 | 


ERANI 论文 文本 内 容 预 处 理 学 术 图 识别 | 
; $0 
: 术 图 表 相关 文本 获取 | | 学术 表 内 文本 获取 E 


学 术 图 表 信息 表示 与 建 模 Cr ^ 
: TETTE 


$ 


一 EE 

> : 

LO 

e 

= JRS BAL # 术 图 表 相 关 文本 信息 抽取 学 术 图 表 自身 信息 抽取 

© A ^ ae di 

<p 学 术 图 像 内 实体 识别 及 标注 

e 

co 1 学 术 图 表 知 识 发 现 技术 框架 

CN 
3D 学 术 图 表 对 象 及 文本 的 识别 与 获取 系 。 规 范 化 标记 格式 (如 HTML/XML 格式 ) 和 PDF 格 
3G 学 术 图 表 对 象 识别 与 获取 式 是 目前 主流 的 两 类 科技 文献 格式 ,学 术 图 表 识 别 任 


.全 学 术 图 表 知识 发 现 首先 要 识别 、 定 位、 获取 科技 文 | 务 在 两 类 格式 上 所 需 技术 存在 差异 。 图 2 展示 了 学 术 
ibis 术 图 表 , 并 建立 学 术 图 表 和 周围 文本 间 的 联 | 图 表 对 象 识别 与 获取 在 不 同 格式 中 的 技术 区 别 : 


DOOM 树 模型 识别 表格 
=< 
TMR WIERE 


LE ond 
一 规范 化 标记 格式 
wrapper 学 习 法 识别 表格 
© XMI 格 sa di 


学 术 图 表 对 象 识别 VR aci 
基于 图 像 识 别 技术 的 学 术 图 表 识 别 


PDF 格式 E ALN L 后 基于 标签 、 文 本 


基于 表格 特征 或 连接 组 件 分 析 识别 学 术 表格 和 
学 术 图 像 


学 术 图 表 对 象 及 文本 的 颜色 量化 算法 
识别 与 
ihe 区 域 递归 分 类 
学 术 图 像 内 文本 获取 《支持 向 量 机 算法 


最 小 生成 树 算法 


学 术 图 表 内 部 文本 获取 其 他 算法 等 
表格 转换 为 图 片 ， 基 于 图 像 特征 识别 获取 
ERAN OT 


构建 启发 式 规则 


基于 命名 规则 的 正则 表达 式 
EXE ie T wane 


学 术 图 表 文 本 获取 


兰 术 图 表 相关 文本 获取 


基于 标识 性 文字 识别 
PRERE FE 
基于 主题 相关 性 查找 相似 段落 


图 2 学 术 图 表 对 象 及 文本 的 识别 与 获取 技术 路 线 
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HTML 兴起 之 初 ,研究 者 基于 ASCI 文件 、 光 学 字 
符 识别 或 特殊 的 制 表 符 标记 ,构建 表格 DOOM 树 模型 
来 识别 HTML 文档 内 的 学 术 表格 "9 。XML 时 代 , 学 术 
图 表 数 据 与 XML 文档 分 开 存 储 ,因此 学 术 图 表 能 直接 
获取 ,只 需要 根据 XML 中 学 术 图 表 标签 及 路 径 来 建立 
学 术 图 表 和 XML 文本 文档 间 的 关联 。 针 对 学 术 表 格 
直接 存在 于 XML 文档 中 的 情况 ,需要 分 析 表 格 结构 ， 
结合 特定 标签 ,使 用 wrapper 学 习 方 法 获取 表格 内 容 ， 
并 重新 组 合 表格 T. 

PDF 文档 内 图 像 识 别 研究 较 早 "9 。PDF 文档 中 
图 像 提取 相对 更 难 。 图 形 数 据 通常 会 以 raster 栅 格 
(PNG ,JPEG ) 或 vector formats 矢量 格式 (SVG ,EPS ) fix 
入 于 PDF 文档 中 。 研 究 人 员 采 用 两 类 方法 来 识别 及 
分 离 PDF 中 图 片 :四 基于 图 像 特征 的 图 - 图 识别 。 首 
先 通过 扫描 等 方式 将 PDF 整个 转 为 图 片 ,随后 基于 位 
RAMEE AC! KRAKO ,基于 连接 组 件 2 的 方法 
WR] PDF 中 的 学 术 图 像 。@ 格 式 化 标签 识别 ,即将 
PB 转换 为 结构 化 的 XML/HTML 格式 ,然后 基于 标签 
识别 提取 图 像 。 例如 Apache PDFBox ^ .PDFMiner " 
odi 和 Poppler ^ 等 工具 将 PDF 文档 转换 为 结构 化 
VEXML/HTML 格式 ,并 提取 文档 中 的 图 形 。 这 些 工具 
握 吏 矢量 格式 的 图 像 时 ,只 能 识别 图 形 中 的 单个 组 件 ， 
便衣 直方 图 的 一 个 条 形 段 , 而 不 是 提取 整个 图 像 。 针 
对 六 个 问题 ,部 分 研究 者 提出 基于 正则 表达 式 (启发 
TOK SI GARE, HEP LL, PAV SS R 
识别 特定 图 像 ” ,或 利用 分 类 算法 排除 无 关 的 矢量 图 


RE ” ,从 而 达到 提取 整个 图 像 的 目的 ;P. Y. Li 等 将 
文士 内 容 与 PDF 文件 的 图 形 内 容 分 开 , 利 用 连接 组 件 
分 析 检测 图 像 ,并 基于 PDF 的 布局 信息 恢复 图 像 标题 
并 建立 与 图 像 间 的 关系 。 

PDF 文档 中 学 术 表 格 识别 获取 分 三 种 技术 路 线 : 
中 使 用 第 三 方 软件 将 PDF 转换 为 XML 或 TXT 格式 ， 
基于 标签 及 文本 特征 抽取 表格 ”。@@ 针 对 以 图 片 方 
式 存储 于 PDF 中 的 表格 ,引入 图 像 识别 技术 ,基于 图 
像 特征 ,经 过 灰 度 变换 .图 像 平滑 .边缘 检测 .二 值 化 和 
倾斜 禾 正 等 步 驴 分 离 并 获取 表格 " 。@ 基 于 PDF 表格 
特征 (如 文字 栅 格 HEARS) ,通过 解析 算法 ,直接 在 PDF 
中 获取 表格 文本 ,实现 表格 形态 的 还 原 ” 。 相 关 研 究 开 
¥ Tabula?" ,TEXUSP* TAOG5 等 表格 提取 工具 。 

3.1.2 ”学 术 图 表 文本 识别 与 获取 

(1) 学 术 图 表 内 部 文本 获取 。 学 术 图 表 内 部 文本 
学 术 图 像 中 的 图 例 .图 注 、 图 像 内 文字 等 内 容 。 
Sas F. Bóschen ^" 总 结 学 术 图 像 中 文本 提取 的 通用 


步骤 包括 图 二 值 化 处 理 .图 像 特征 矢量 计算 ,应 用 连接 
组 件 标 记 、OCR 识别 .特殊 字符 过 滤 等 。 

为 解决 通用 方法 准确 率 不 稳定 的 问题 ,研究 者 们 
使 用 不 同方 法 从 特定 学 术 图 像 提取 图 内 文本 。 如 在 制 
图 地 图 中 应 用 颜色 量化 算法 ,使 用 形态 学 算 子 和 OCR 
来 检测 并 分 离 文 本 '” ;使 用 垂直 和 水 平 投影 直方 图 分 
Tr ,将 直方 图 的 各 区 域 递归 分 类 为 文本 和 非 文本 ; 
使 用 基于 几何 、 区域 .示例 和 轮廓 等 相关 特征 ,采用 文 
持 向 量 机 分 类 算法 ,从 生物 医学 出 版 物 图 像 中 自动 检 
测 识别 文本 ;利用 深度 学 习 模 型 和 OCR 识别 从 生物 
学 领域 的 路 径 图 中 获取 分 子 实体 及 其 相互 作用 的 文本 
WU, 

表格 内 文本 抽取 研究 相对 成 熟 ,有 两 类 方法 :中 将 
表格 转 为 图 片 , 基 于 布局 .线条 文本 位 置 .单词 间距 、 
文字 大 小 等 特征 ,按照 图 片 内 文本 抽取 的 步骤 ,采用 贝 
叶 斯 分 类 算法 或 者 树 形 遍历 算法 ,从 图 片 内 抽取 文本 
内 容 ” ;@) 基 于 规则 ,构建 启发 式 或 模板 ,识别 横 纵 轴 
标签 及 数值 ,抽取 表格 实体 并 重 构 关系 。 

(2) 学 术 图 表 相 关 文 本 的 获取 。Y. Hong 研究 发 
现 , 若 不 参考 上 下 文 提 及 文本 ,研究 人 员 理 解 学 术 图表 
将 丢失 30% 的 信息 内 容 , 因 此 理解 和 发 现 学 术 图 表 应 
结合 学 术 图 表 和 上 下 文 提 及 文本 。 获 取 学 术 图 表 
上 下 文 信息 需要 保证 尽 可 能 找到 学 术 图 表 涉 及 的 文本 
内 容 , 也 应 尽量 少 引入 无 关 的 文本 信息 。 其 中 学 术 图 
表 标 题 ,注释 及 正文 中 学 术 图 表 上 下 文 提 及 内 获取 是 

学 术 图 表 标题 及 注释 获取 可 分 为 基于 规则 和 基于 
布局 关系 两 种 方式 :中 基于 规则 的 方法 利用 特定 字段 
或 基于 命名 规则 的 正则 表达 式 来 获取 学 术 图 表 标 题 及 
注释 内 容 。 如 利用 < caption > 、< table - note > 等 字段 
获取 XML 中 的 标题 和 注释 内 容 。PDF 文档 中 标题 及 
注释 抽取 可 基于 命名 规则 ,利用 正则 表达 式 来 抽 
HU 。 基 于 规则 的 方法 需要 过 滤器 来 科 选 噪音 结 
如 仅 选 择 以 分 号 、 句 号 .冒号 为 结尾 的 短语 ;或 选择 粗 
体 或 斜体 ;或 选择 字体 与 后 面 不 一 致 的 短 句 ; 或 聚 类 不 
同 描述 符 组 ,选择 最 多 数量 的 组 为 唯一 标识 “” 。@ 基 
于 布局 关系 的 方法 利用 学 术 图 表 和 学 术 图 表 标 题 E 
释 在 文档 布局 上 的 对 应 关系 ,使 用 图 像 识别 技术 抽取 图 
下 或 者 表 上 的 学 术 图 表 标题 ”。 例 如 C. Clark 和 S. Di- 
vvala 将 每 页 PDF 分 解 为 标题 .正文 \ 图 形 文本 和 图 形 等 
不 同 区 域 ,构建 图 形 重 受 .垂直 文本 、 宽 间隔 文本 \ 行 宽 
等 启发 式 对 标题 ,学术 图 表 注 释 、 正 文 文本 分 类 。 

学 术 图 表 标题 和 学 术 图 表 本 身 匹 配 也 是 重要 研究 
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问题 。XML 格式 论文 文档 通常 会 提供 学 术 图 表 的 引用 
ID ,基于 ID 名 称 可 建立 学 术 图 表 标 题 和 学 术 图 表 本 身 
间 的 对 应 关系 。PDF 文档 内 多 数 需 要 基于 不 同 的 学 术 
图 表 和 标题 布局 ,综合 考虑 标题 和 学 术 图 表 的 L-to-1 \N- 
to-N、N-to-M 关系 ,利用 相关 算法 来 确定 对 应 关系 。 

学 术 图 表 上 下 文 提 及 内 容 获 取 有 两 种 方法 :中 方法 
基于 标识 性 文字 来 识别 明确 引用 学 术 图 表 的 句子 或 者 
段落 ,如 fig table 等 关键 词 ” 。@) 方 法 以 学 术 图 表 标 题 
或 明确 引用 学 术 图 表 的 语句 或 段落 为 基准 ,基于 主题 相 
关 性 来 查找 与 之 最 相似 的 句子 或 段落 ”” 。 

综合 而 言 ,学 术 图 表 对 象 及 文本 的 识别 与 获取 任 


学 术 图 表 文 本 信息 表示 


学 术 图 表 信 息 表示 及 建 模 


学 术 图 表 文 本 表示 

在 文本 知识 发 现 中 ,基于 离散 的 词 表示 为 基础 的 
文档 表示 模型 是 的 文本 表示 模型 ,其 中 词 袋 模 型 ( Bag 
of Words) 是 最 常见 的 文本 表示 方式 ,在 词 袋 模型 上 进 
一 步 衍生 出 向 量 空间 模型 .概率 模型 ”和 推理 网 络 模 
型 ”等 表示 模型 。TF-IDF 是 传统 空间 向 量 模型 中 用 
于 特征 权重 计算 的 常见 方法 ,分 布 式 词 租 入 表示 (word 
embedding ) 是 神经 网 络 模型 支持 下 产生 的 热门 词 癌 量 
表示 模型 ”。 在 学 术 图 表 的 标题 .注释 及 上 下 文 可 延 
续 使 用 上 述 文本 表示 方法 。 
3.2.2 学 术 图 像 视觉 特征 表示 

图 像 视 觉 特征 表示 是 利用 不 同形 式 的 特征 表示 描 
述 图 像 的 视觉 内 容 的 过 程 ,此 过 程 是 让 机 器 理解 图 像 
的 基本 单元 。 基 于 视觉 特征 表示 的 图 像 检索 又 称 为 基 
于 内 容 的 图 像 检 索 (Content Based Image Retrieval, 


图 像 视觉 特征 表示 


六 术 图 像 标注 文本 表示 


务 在 不 同文 献 类 型 中 发 展 出 不 同 的 技术 路 线 。 学 术 图 
像 和 学 术 表 格 的 识别 在 现 有 技术 支持 下 能 获得 不 错 的 
效果 。 学 术 图 表 文 本 识别 中 的 上 下 文 提 及 内 容 获 取 是 
一 个 难点 ,需要 在 覆盖 率 和 准确 率 上 取得 平衡 。 
3.2 ”学术 图 表 信息 表示 及 建 模 

学 术 图 表 知 识 表 示 是 指 将 描述 学 术 图 表 的 自然 语 
言 文本 以 及 学 术 图 表 所 展示 的 图 像 视觉 信息 变 为 计算 
机 可 处 理 的 数字 知识 表示 模式 。 学 术 图 表 涉 及 三 类 信 
息 表示 ,分 别 是 学 术 图 表 文 本 表示 、 图 像 视觉 特征 表 
示 、 图 像 标注 文本 表示 。 如 图 3 所 示 : 


词 向 量 表示 模型 


向 量 空间 模型 


推理 网 络 模型 


人 工 标注 


最 近邻 模型 


机 器 自动 标注 判别 模型 


标签 补 全 


深度 学 习 


3 学术 图 表 信 息 表示 及 建 模 技术 概览 


CBIR) 。 视 觉 特征 表示 过 程 大 致 分 为 三 个 步 又: 区域 
选择 ,特征 表示 特征 聚 类 。 

区 域 选择 早期 采用 固定 划分 的 方式 ,此 方式 简单 
但 破坏 了 图 像 的 视觉 内 容 。 图 像 分 割 是 研究 最 多 的 区 
域 选择 方法 ,其 最 终 目 的 是 将 分 割 后 的 像素 归属 于 一 
个 对 象 ,包括 有 监督 ”、 弱 监督 及 无 监督 ”的 分 割 
算法 。 事 实 上 ,图 像 分 割 不 仅 是 底层 图 像 处 理 问题 , 同 
时 是 对 象 理 解 问题 。 目 前 自动 图 像 分 割 在 特定 领域 表 
现 不 错 , 但 在 通用 领域 上 从 佳 。 显 著 点 选择 是 对 象 级 
分 割 难以 提升 准确 率 的 优化 区 域 选择 方式 ,其 原理 是 
选择 图 像 中 具有 显著 特征 的 点 来 表示 图 像 区 域 “。 

区 域 选择 后 需要 从 确定 的 图 像 区 域内 提取 出 图 像 
视觉 内 容 的 特征 信息 ,如 常见 的 颜色 纹理 .形状 和 空 
间 关 系 等 ,并 在 特征 提取 后 通过 特定 描述 符 来 表示 图 
像 视觉 的 局 部 对 象 , 这 就 是 图 像 特征 表示 ,也 称 为 视觉 
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TÈ. 学 术 图 表 知 识 发 现 技 术 框 架 及 研究 进展 [J]. 图 书 情报 工作 ,2021 ,65(23) 1136 - 148. 


单词 袋 (Bag of Visual Words, BVW) o SIFT( Scale Invar- 
iant Feature Transform ) " , SURF ( Speeded-up Robust 
Features ) , HOG ( Histogram of Oriented Gradients ) ^" 等 
是 应 用 较 多 局 部 特征 表示 方法 。 尽 管 提取 的 图 像 视 党 
特征 信息 能 直接 用 于 图 像 检索 ,但 存在 向 量 维度 过 高 
的 问题 ,需要 降 维 处 理 。 降 维 方式 有 主 成 分 分 析 ” 、 
奇异 值 分 解 ” 、 局 部 敏感 哈 希 "等 。 

在 深度 学 习 技 术 文 持 下 ,近年 来 有 诸多 研究 尝试 
使 用 视觉 语义 般 入 学 习 ” 共识 感知 视觉 语义 角 
入 ” ,图 注意 力 ”等 方法 挖掘 图 像 和 文本 间 的 潜在 语 
义 结构 信息 ,计算 图 像 视觉 特征 表示 和 文本 表示 的 相 
似 性 ,从 而 实现 基于 图 像 的 文本 检索 或 基于 文本 的 图 
像 检索 。 它 们 致力 于 将 图 像 视觉 表 示 和 文本 表示 统一 
在 一 个 空间 上 ,但 当下 此 类 技术 未 能 平衡 全 局 特征 和 
局 部 区 域 寺 征 的 关系 ,暂时 未 应 用 到 更 多 的 跨 模 态 任 
用 如 图 像 字幕 和 视觉 问答 中 。 
到 3 学术 图 像 标注 文本 表示 
加 单纯 的 图 像 视觉 特征 表示 无 法 让 机 器 理解 图 像 高 
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区 和 内 容 间 喘 射 而 产生 研究 主题 。 学 术 图 像 标注 采用 
/ED 或 机 器 自动 学 习 的 方式 ,将 学 术 图 像 的 低层 视觉 
特征 表示 为 高 级 语义 的 标注 文本 内 容 , 这 些 与 学 术 图 
像 美 联 的 标注 文本 可 作为 计算 机 理解 学 术 图 像 的 数字 
舌 江 表示 中 。 主 流 的 5 种 图 像 自动 标注 方法 包括 基 
FEE HUS .基于 最 近邻 模型 .基于 判别 模型 .基于 标 
签 福全 基于 深度 学 习 ”。 其 中 基于 深度 学 习 算法 的 
图 癸 自 动 标注 是 近年 的 研究 热点 ,涉及 到 的 模型 包括 
深度 神经 网 络 , 卷 积 神经 网 络 .循环 神经 网 络 .长 短期 
记忆 网 络 及 堆栈 自动 编码 等 。 这 些 自动 标注 方法 
大 多 实验 于 一 般 图 像 或 网 络 图 像 ,而 学 术 图 像 领域 , 目 
前 主流 标注 方式 依旧 是 人 工 标注 ,发 展 了 Quick Anno- 
tator'®) DicomAnnotator/ 9 等 半自动 或 众 包 标注 工具 。 

学 术 图 表 的 双 模 态 导致 学 术 图 表 信息 表示 上 的 制 
裂 。 学 术 图 像 标注 文本 表示 尝试 修复 文本 表示 和 视觉 
地 征 表 示 问 的 割裂 ,但 由 于 学 术 图 像 标注 所 需 初 始 标注 
知识 库 缺 乏 ,同时 受制 于 学 术 图 表 为 核心 对 象 的 知识 单 
元 语义 表示 模型 尚未 完善 ,导致 学 术 图 表 自动 语义 标注 
技术 未 能 实现 大 规模 应 用 。 图 像 视觉 表示 和 文本 表示 
统一 到 同一 空间 计算 是 值得 关注 的 技术 , 需 关注 其 在 全 
局 空间 和 局 部 对 象 的 结合 以 及 视觉 语义 推理 上 的 进展 。 
3.3 学术 图 表 分 类 和 学 术 图 表 文 本 分 类 

学 术 图 表 分 类 及 文本 分 类 是 学 术 图 表 检 索 等 学 术 


图 表 知 识 发 现 应 用 的 基础 。 文 本 分 类 是 使 用 预先 的 知 
识 分 类 框架 或 者 规则 ,基于 逻辑 模型 (例如 决策 树 )、 
概率 模型 ( 例如 朴素 贝 叶 斯 ) 几何 模 型 (例如 支持 向 
TEL) 等 对 文本 进行 分 类 处 理 ”。 

学 术 图 表 文 本 分 类 分 为 两 个 子 任务 :一 是 学 术 图 
表 上 下 文 分 类 ,例如 将 上 下 文 分 为 简介 \ 方 法、 结果 和 
讨论 等 ,其 主要 用 途 是 文本 摘要 形成 ;二 是 学 术 图 表 内 
文本 分 类 。 学 术 图 像 中 部 分 文本 有 明确 含义 ,如 图 例 、 
x "ilb vy - 轴 标 题 等 ,可 以 对 它们 实施 分 类 。J. Poco 
等 构建 一 个 专门 的 学 术 图 像 文本 分 析 管 道 ,通过 文字 
检测 .OCR 识别 . 词 合并 文本 分 类 等 步骤 实现 学 术 图 
像 内 文字 编码 的 逆向 解析 ,并 将 其 分 类 为 不 同 实体 类 
型 ”。 学 术 表 格 文本 分 类 则 关注 其 在 文献 内 使 用 功 
能 。 如 S. Kim 将 科学 论文 内 的 表格 分 为 背景 系统 / 方 
法 ,实验 三 类 以 及 评论 .比较 两 个 功能 类 '” 。 

学 术 图 像 分 类 已 有 大 量 研究 。 学 术 图 方面 ,相关 
研究 融合 图 像 低层 特征 及 文本 特征 ,基于 支持 问 量 
BV 、 卷 积 神经 网 络 算法 "” 多样 性 密度 算法 "等 机 
器 学 习 模 型 ,实现 部 分 学 术 图 像 的 自动 分 类 ,如 条 形 
图 \ 饼 图 .折线 图 、 射 线 图 等 。 复合 图 作为 常见 的 一 种 
学 术 图 像 类 型 ,其 识别 及 子 图 类 型 分 类 是 当下 研究 热 
点 之 一 。 

复合 图 识别 分 为 基于 文本 特征 、 基 于 视觉 特征 、 基 
于 混合 特征 三 种 方法 。 文 本 特征 指 复合 图 中 及 图 注 内 
的 文本 标签 内 容 , 例 如 复合 图 的 拼接 处 以 及 图 注释 中 
“A.”b:”“(c) ”等 标识 ,其 标识 格式 一 般 为 序列 符号 
+ 分 隔 符 号 。 人 研究 者 利用 这 些 文本 特征 ,使 用 正则 表 
Ast” 或 支持 向 量 机 算法 ”识别 学 术 复 合 图 。 基 于 
视觉 特征 的 复合 图 识别 依靠 的 是 图 像 的 布局 信息 , 例 
如 子 图 间 的 空白 。 研 究 者 基于 复合 图 视觉 特征 借助 分 
界线 探测 “” 、 子 图 连通 域 探测 "图 像 强度 统计 
等 技术 识别 复合 图 。 

子 图 类 型 识别 是 多 标签 分 类 任务 ,分 两 种 方法 : 
@D 分 割 复合 图 为 子 图 ,随后 基于 单一 图 的 分 类 算法 识 
别 子 图 类 别 标签 2 ; @ 创 建 多 标签 学 习 模 型 ,基于 复 
合 图 说 明文 本 及 复合 图 视觉 特征 ,直接 从 复合 图 中 识 
别 子 图 类 别 。 

学 术 表格 分 类 任务 研究 较 少 ,主要 从 表格 形态 .用 
途 等 维度 对 表格 分 类 ,如 Tabex 工具 识别 Web 表格 ,并 
将 其 分 为 垂直 列表 水 平 列表 .日历 . 窗 体 等 ” 。 

学 术 图 表 文本 分 类 和 学 术 图 表 分 类 均 能 有 效 提高 
学 术 图 表 信息 抽取 的 效果 。 当 下 学 术 图 像 内 的 文本 分 
类 任务 依旧 局 限 在 文本 功能 层面 ,未 来 可 以 结合 图 像 
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类 型 ,对 文本 进行 语义 深度 分 类 ,探究 图 像 类 型 与 图 像 
文本 间 的 语义 关联 ,例如 流程 图 中 的 文本 表示 流程 步 
又 , 树 形 图 的 文本 存在 的 上 下 级 关系 。 由 于 不 同 领域 
中 学 术 图 像 表 现 类 型 不 一 以 及 复合 学 术 图 的 大 量 存 
在 ,学 术 图 像 类 型 识别 尚 无 法 做 到 全 部 图 像 类 型 覆盖 。 
3.4 学术 图 表 信 息 抽 取 

信息 抽取 是 知识 发 现 最 重要 的 一 环 , 它 从 非 结 构 化 
数据 中 抽取 出 结构 化 信息 以 获得 知识 初始 模式 。 命 名 


表 相 关 文 本 的 信息 抽取 


学 术 图 表 信 息 抽取 


学 术 


表 自 身 信息 抽取 


del 学 术 图 像 内 实体 识别 及 标注 
_ 所 学 术 图 像 内 实体 识别 及 标注 涉及 学 术 图 像 内 非 文 
ASE e UII Ej TE .学 术 图 像 内 文本 命名 实体 识别 。 
@O 学 术 图 像 内 非 文本 对 象 识别 与 标注 是 基于 图 像 分 
割 和 机 器 视觉 对 象 识别 ,从 照片 .医学 图 像 .成 像 图 等 
类 型 的 学 术 图 像 中 发 现 科研 对 象 ,并 建立 对 象 的 边界 
与 类 别 。 研 究 者 们 在 医学 .生物 .农业 等 领域 开展 特定 
类 型 图 像 的 非 文本 对 象 识别 与 标注 。 结 构 化 文本 图 片 
发 现 系 统 ( Structured Literature Image Finder system, 
SLIF) 关注 生物 文献 中 的 显微镜 成 像 图 ,通过 机 器 视 
觉 识 别 的 方法 来 发 现成 像 图 中 的 基因 ` 蛋 白质 对 象 ,并 
标注 概念 ” Human Brain Project 项 目 识别 大 脑 成 像 
图 片 的 特定 区 域 对 象 , 并 将 其 与 受 控 词 表 中 的 概念 关 
Ji] | EMAP (the Edinburgh Mouse Atlas Project) 利用 
解剖 学 词 表 概 念 对 老鼠 胚胎 的 3D 图 片 和 2D 2820] 
面 进行 标注 ” 。 农 业 领 域 的 研究 者 们 基于 卷 积 神经 
网 络 等 深度 学 习 算法 识别 并 分 类 学 术 图 像 中 的 不 同 植 
物 的 不 同 病 虫 害 ,在 小 范围 数据 集中 取得 不 错 效 


Ha [88 -89] 
IN 


o 


图 像 内 实体 识别 及 标注 { 


学 术 表格 关系 抽取 i 
基于 文本 共 现 
Ties 
学 


实体 识别 及 关系 抽取 是 文本 信息 抽取 的 两 个 核心 过 程 。 

学 术 图 表 信 息 抽取 包括 两 大 方面 :中 科技 文献 中 
与 学 术 图 表 相关 的 文本 信息 抽取 ,此 部 分 的 技术 路 线 
即 传统 的 科技 文献 文本 信息 抽取 的 技术 ,已 有 诸多 论 
文 论述 ,本 研究 不 再 详 述 ;@) 学 术 图 表 本 身 的 信息 抽 
取 , 其 又 分 为 学 术 图 像 内 实体 识别 及 标注 .学术 图 表 关 
系 抽取 两 个 分 支 。 图 4 展示 了 学 术 图 表 信 息 抽取 的 主 
要 技术 点 及 其 主流 方法 : 


基于 词典 的 方法 


基于 预定 规则 的 方法 
命名 实体 识别 基于 统计 的 机 器 学 习 方 法 


基于 本 体 的 实体 识别 方法 


基于 深度 学 习 的 方法 
基于 规则 的 关系 抽取 
ossa erimus 


基于 分 类 的 关系 抽取 方法 


非 文 本 对 象 识别 一 一 基于 


到 像 分 割 和 机 器 视觉 识别 


图 像 内 文本 命名 实体 识别 一 一 基于 词典 的 方法 


基于 规则 映射 及 本 体 标 注 


aL 


基于 规则 


RR EF HL i 


基于 分 类 


4 学 术 图 表 信 息 抽 取 技 术 路 线 


学 术 图 像 内 文本 命名 实体 识别 通过 识别 学 术 图 像 
中 的 文本 对 象 , 基 于 图 像 表 达 内 容 来 实施 命名 实体 识 
别 。 如 T.Kuhn 等 识别 医学 文献 中 凝 胶 图 片 中 标签 ,对 
基因 蛋白 质 等 对 象 进行 命名 实体 识别 ,正确 识别 基 
因 / 蛋 白质 实体 达到 65.396 HEA" 。 
3.4.2 学 术 图 表 关 系 抽 取 

(1) 学 术 表 格 关系 抽取 。 研 究 者 基于 表格 形式 特 
征 , 抽 取 学 术 表 格 文本 并 借助 本 体 或 语义 映射 关系 来 
抽取 学 术 表 格 内 文本 关系 。Z. Q. Zhang 提出 了 一 种 
增 量 的 、 互 递归 的 、 弱 监督 学 习 的 一 维 表 数据 自动 语义 
标注 方法 TableMiner, 利 用 上 下 文 信息 和 部 分 列 数据 
初步 得 出 列 头 对 应 的 类 和 单元 格 数据 在 FreeBase 知识 
库 中 对 应 的 实体 ,并 抽取 实体 关系 ”。H. P. Cao 等 借 
助 本 体 工具 ,利用 规范 化 的 观测 术语 、 实 体 对 象 ,基于 
表格 对 应 关系 ,将 观测 数据 表格 转化 为 可 理解 的 事 
fF", C. S. Bhagavatula 等 构建 了 实体 链接 系统 
TabEL ,该 系统 通过 考察 单元 格 短语 与 候选 实体 在 维基 
百科 文档 和 表格 中 的 共 现 情况 来 确定 列 类 型 和 列 关 
Rm, 
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(2) 学 术 图 像 内 关系 抽取 。 学 术 图 关系 抽取 建立 
在 图 内 文本 、 对 象 .数值 提取 的 基础 上 ,可 基于 规则 或 
分 类 的 方式 抽取 知识 关系 。A. Kembhavi 等 引入 一 种 
图 解析 图 (Diagram Parse Graphs ,DPC ) 方 法 ,识别 文献 
中 视觉 插图 (如 食物 链 图 ,大气 循环 图 等 ) 中 的 图 元 
素 ,并 建立 元 素 间 的 语义 关系 ” , P. Le 等 提出 从 系 
统 树 图 中 提取 信息 的 新 方法 ,可 以 实现 科学 文献 中 系 
统 树 图 自动 识别 ,并 基于 层级 规则 ,提取 树 结构 的 关键 
成 分 ,重建 树 ,恢复 树 的 层次 关系 '” 。 何 英 研究 科技 
文献 中 的 柱 形 图 的 检测 、 分 割 、 信 息 提取 ,基于 CNN 卷 
积 神经 分 类 器 ,从 生物 文献 中 的 柱 形 图 中 抽取 大 豆 基 
因 和 表 型 相关 的 数据 ,挖掘 并 建立 基因 - 表 型 - 育种 
时 间 -表现 水 平 数值 间 的 关系 。 
一 学 术 图 表 信息 抽取 是 综合 性 任务 ,一 方面 它 需 要 
学 术 图 表 信 息 表 示 及 学 术 图 表 分 类 为 其 提供 基础 信 
蚀 > 田 一 方面 抽取 任务 要 深度 融合 语义 信息 。 现 有 信 
乱 萎 取 研 究 实践 通过 借助 领域 词典 或 自 定义 语义 关系 
本 妥 现 特定 学 术 图 表 类 型 中 的 部 分 语义 信息 抽取 。 若 
能 鹃 建立 完善 的 学 术 图 表 语义 知识 组 织 体系 ,并 将 其 
与 产 域 知识 组 织 体系 结合 , 必 将 获得 更 精准 的 学 术 图 
def e dim. 


学 术 图 表 知 识 发 现 应 用 服务 


二 -知识 服务 应 用 是 学 术 图 表 知识 发 现 的 落脚 点 。 目 
前 5 学术 图 表 知 识 发 现 主要 应 用 于 三 大 方面 ,分 别 是 学 
RRR ,学术 图 表 自 动 摘要 图像 视 觉 问答 。 

4. 学 术 图 表 检索 发 现 

-学 术 图 表 检 索 是 最 广泛 的 学 术 图 表 知 识 发 现 应 
用 全 它 涉及 学 术 图 表 识别 .学 术 图 表 分 类 及 学 术 图 表 
标注 等 知识 发 现 技术 。 例 如 CSA llustrata 学 术 图 表 检 


像 自动 分 类 ` 图 像 语义 标注 及 图 像 文本 自动 分 类 等 相 
关 知 识 发 现 技 术 。 
4.2 学 术 图 表 自 动 摘 要 

学 术 图 表 文 本 摘要 能 够 帮助 科研 人 员 快 速 了 解 学 
术 图 表 含 义 而 不 用 阅读 论文 全 文 ,同时 学 术 图 表 摘 要 
配合 学 术 图 表 检 索 能 单独 提供 知识 发 现 服 务 。 文 本 摘 
要 应 用 的 主要 知识 发 现 技 术 包 括 学 术 图 表 上 下 文 提 太 
内 容 获 取 、 文 本 分 类 ,信息 抽取 等 。 文 本 摘要 分 抽取 型 
摘要 和 抽象 型 摘要 两 类 :抽取 型 摘要 基于 语句 语义 关 
系 定义 及 预 训 练 直 接 从 原 目 标 文档 中 抽取 已 有 片段 来 
构建 摘要 。 抽 象 型 摘要 则 灵活 抽取 事实 对 象 或 语句 ， 
生成 的 摘要 可 能 含有 原文 中 并 不 存在 的 词 或 句子 。 

目前 学 术 图 表 摘 要 以 抽取 型 摘要 居多 。 根 据 摘要 
形成 使 用 的 方法 类 型 ,分 为 有 监督 学 习 和 无 监督 学 习 。 
其 中 有 监督 学 习 需 要 先 训 练 样本 ,如 S. Bhatia 分 别 使 
用 村 素 贝 叶 斯 和 支持 向 量 机 的 分 类 算法 ,根据 文章 句 
子 与 学 术 图 表 标题 之 间 的 相似 度 , 抽 取 相 关 句 子 形成 
学 术 图 表 摘 要 内 容 o S. Agarwal 等 开发 图 形 摘要 系 
统 FigSum, 从 医学 文献 中 抽取 出 图 形 的 结构 性 文本 摘 
要 ,并 将 文本 分 类 为 简介 方法 、 结 果 和 讨论 ”。 无 监 
督学 习 不 需要 预先 训练 , 而 是 机 器 自动 学 习 分 类 。N. 
Saini 等 采用 多 目标 优化 (Multiobjective Optimization, 
M00) 方 法 构建 了 无 监督 的 学 术 图 自动 摘要 系统 
MOOFigSum ^" fil FigSum + +'” ,能 自动 为 论文 内 每 一 
个 学 术 图 表 生 成 摘要 。J. Chen 等 采用 无 监督 的 分 层 
多 模 态 RNN 模型 生成 文本 + 图 像 的 多 模 态 新 闻 摘 
xim, 
4.3 图 像 视 觉 问答 

图 像 视觉 问答 (Visual Question Answering) 融合 计 
算 机 视觉 及 自然 语言 处 理 两 大 人 工 智 能 领域 技术 ,是 


索 识别 抽取 文献 中 的 表格 、 图 片 等 数据 ,通过 “深度 索 
引 ” 方 法 人 工 标 引 元 数据 建立 独立 索引 数据 库 , 继 而 提 
供 基于 关键 词 的 学 术 图 表 检 索 服务 。 

随 着 知识 发 现 技术 持续 深入 ,学 术 图 表 检 索 呈 现 
新 的 特点 。 表 现在 :中 学 术 图 表 分 类 中 更 多 采用 机 器 
学 习 的 自动 分 类 方法 ;@ 利 用 语义 标注 技术 提供 基于 
本 体 推 荐 的 语义 相关 术语 来 优化 查询 ;号 使 用 文本 自 
动 分 类 及 相似 度 计算 形成 学 术 图 表 的 自动 摘要 内 容 。 
NIH 开发 的 科研 图 片 数 据 库 Open-i 平台 是 代表 之 一 。 
该 平台 综合 来 自 PMC Medpix, USC Orthopedic Surgical 
Anatomy „Images from the History of Medicine (NLM) In- 
diana U. Chest X-rays 等 的 科研 图 片 ,其 中 PMC 的 科研 


当下 的 研究 热点 。 其 形式 是 通过 向 机 器 输入 图 像 以 及 
关于 图 像 内 容 的 自然 语言 形式 问题 ,机 器 反馈 自然 语 
言 形式 的 回答 。 这 其 中 涉及 图 像 对 象 识别 、 图 像 标注 
等 知识 发 现 技术 。 

目前 视觉 问 答 主要 集中 于 自然 图 像 理解 领域 , 研 
究 者 们 提出 基于 图 像 特征 融合 .基于 实体 注意 力 、 基 于 
多 步 推理 .基于 引入 知识 、 基 于 关系 建 模 等 多 种 视觉 问 
A ak …" 。 学 术 图 像 领域 ,研究 者 开展 特定 类 型 图 像 
的 视觉 问答 研究 及 学 术 图 表 视 觉 问 答 数据 集 构建 等 研 
究 。A. Kembhavi 等 通过 引入 图 解析 图 注意 力 模型 方 
法 ,抽取 文献 中 视觉 插图 元 素 及 插图 文本 ,建立 元 素 与 
文本 间 的 对 应 语义 关系 ,基于 长 短 记忆 神经 网 络 学 习 


图 片 是 科技 文献 内 的 学 术 图 像 。Open-i 提供 关键 词 、 
Mesh 主题 词 检索 以 及 以 图 找 图 的 发 现 方 式 ,并 采用 图 


算法 解析 语法 ,构建 视觉 插图 知识 问答 系统 ” 。K. 
Kafl 在 视觉 问答 基础 上 提出 一 个 专门 用 于 文献 中 条 形 
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图 的 数据 检索 和 数据 推理 的 视觉 问答 数据 集 
DVQA"™) 。 微 软 研究 构建 了 一 个 可 用 于 学 术 图 表 问 答 
的 数据 集 FigureQA "18 万 张 垂直 条 形 图 .水 平 条 
形 图 .折线 图 .虚线 图 以 及 饼 图 ,有 超过 200 个 问题 及 
答案 ,为 开发 功能 更 强大 的 学 术 图 表 视 觉 问 题 回 答 和 
推理 模型 提供 参考 。 类 似 数据 集 还 有 LEAF-QA"™ 。 
整体 而 言 ,学 术 图 像 的 视觉 问答 应 用 前 景 广泛 ,但 还 有 
较 大 的 技术 发 展 空间 。 


5 学 术 图 表 知 识 发 现 的 研究 展望 


综合 学 术 图 表 知识 发 现 的 技术 框架 与 应 用 ,学 术 
图 表 知识 发 现在 学 术 图 表 对 象 及 文本 的 识别 与 获取 、 
学 术 图 表 信息 表示 及 标注 ,学 术 图 表 分 类 和 文本 分 类 、 
党 术 图 表 信 息 抽取 等 方面 取得 一 定 进展 ,同时 在 多 个 
应 朝 领 域 已 有 相关 实践 。 为 使 学 术 图 表 知识 发 现 能 在 
志和 名 学 术 知 识 服务 体系 中 发 挥 更 大 作用 ,本 文 提出 以 


TE 方面 的 发 展 策略 : 
5G) 重视 学 术 图 表 知识 发 现 ,将 其 融入 文献 知识 发 现 
体系 内 


长 久 以 来 ,文本 知识 发 现 是 文献 知识 发 现 的 主要 
实现 途径 。 在 全 新 数据 密集 型 科学 发 现 的 科技 创新 生 


A 


EÈ WKAR DRENERER, iof] SEL i 
Ac d PL HU A RA CRIER. 

二 学 术 图 表 知识 发 现 能 有 效 推动 文献 知识 发 现 服务 
以 于 应 数据 密集 型 科学 发 现下 的 新 型 知识 生态 环境 。 
首 给 对 学 术 图 表 实 施 知识 发 现 能 扩展 现 有 学 术 知识 检 
索 贸 对 象 类 型 ,突破 文本 检索 限制 ,提供 多 维 学 术 图 表 
形 外 的 更 丰富 的 文献 知识 展示 ,还 可 通过 学 术 图 表 发 
现 驴 展 到 学 术 图 表 依附 的 科学 数据 发 现 ;其 次 通过 学 
术 图 表 发 现实 现 基于 证 据 的 知识 精准 发 现 ,推动 文献 
知识 服务 向 多 模 态 知识 服务 进展 ;最 后 ,基于 学 术 图 表 
信息 抽取 及 学 术 图 表 标注 ,计算 机 对 学 术 图 表 理解 更 
深 , 为 深度 知识 关系 挖掘 黄 定 基础 。 

将 学 术 图 表 知 识 发 现 纳入 文献 知识 发 现 体系 , 具 
体 而 言 :D 基 于 本 体 学 习 、 本 体 集成 .本 体 对 齐 等 知识 
单元 语义 关联 的 知识 组 织 方法 ,构建 以 学 术 图 表 为 核 
心 对 象 的 知识 单元 语义 表示 模型 ,如 通用 描述 知识 单 
元 .学术 图 表 领 域 知 识 单元 ` 面 向 特定 问题 解决 的 知识 
单元 (如 自动 问答 ) 等 ,在 语义 知识 组 织 框架 帮助 下 建 
设 专门 的 学 术 图 表 语 义 知识 库 ;@ 利 用 深度 学 习 、 神 经 
网 络 学 习 等 方法 ,突破 学 术 图 表 统 一 语义 表示 ,学术 图 
表 自动 分 类 .学 术 图 表 自 动 语义 标注 ,基于 内 容 的 学 术 
图 表 智能 推荐 计算 ,学 术 图 表 知识 抽取 ,学 术 图 表 自 动 
摘要 等 关键 技术 ,构建 适用 于 多 模 态 对 象 的 知识 发 现 


引擎 ; 思 提 供 创新 的 针对 学 术 图 表 特 性 的 不 同 问题 解 
决 的 应 用 组 件 ,例如 学 术 图 表 语 义 标注 .学术 图 表 自 动 
摘要 学 术 图 表 相 似 检 测 ,学术 图 表 智 能 问答 等 ,以 便 
研究 人 员 根 据 自 身 需 求实 施 数据 挖掘 和 关联 。 

5.2. ”完善 学 术 图 表 语 义 知识 组 织 体系 ,构建 专门 的 学 
术 图 表 语 义 知识 库 

语义 知识 库 融 合 了 知识 发 现 技 术 和 知识 组 织 
容 , 它 为 新 的 命名 实体 识别 .语义 相似 度 计算 、 信 息 抽 
取 等 知识 发 现 技术 提供 语义 数据 支撑 。 在 文本 知识 发 
现 领域 ,语义 知识 库 已 经 比较 成 熟 ,在 领域 应 用 上 亦 有 
大 量 实证 。 反 观 学 术 图 表 领 域 ,尽管 有 部 分 语料库 及 
学 术 图 表 数 据 仓 储 可 供 使 用 ,但 在 学 术 图 表 语 义 知识 
库 上 尚 处 于 初步 阶段 。 

构建 以 学 术 图 表 为 核心 对 象 的 知识 单元 语义 表示 
模型 势 在 必 行 。 目 前 学 术 图 表 知识 组 织 以 传统 元 数据 
组 织 方式 为 主 ,以 本 体 和 知识 学 术 图 表 为 代表 的 语义 
知识 模型 在 学 术 图 表 领 域 正人 处 于 新 兴 发 展 阶段 。 从 前 
述 学 术 图 表 知 识 发 现 技 术 要 点 来 看 , 现 有 学 术 图 表 知 
识 发 现 中 较 少 借助 知识 组 织 体系 ,未 发 挥 其 在 信息 检 
索 、 信 息 抽取 实体 与 关系 类 型 过 滤 等 知识 发 现 过 程 的 
作用 ,这 使 得 学 术 图 表 知 识 发 现 难以 在 大 规模 数据 上 
取得 较 好 效果 ,也 限制 学 术 图 表 知 识 发 现在 领域 中 的 
应 用 。 

本 体 语义 知识 模型 能 充当 基础 知识 库 中 语义 类 别 
及 关联 的 框架 支撑 ,同时 它 在 整个 语义 知识 服务 的 检 
索 到 问答 过 程 中 发 挥 语 义 归 一 .语义 消 收 的 重要 作用 。 
因此 需要 以 学 术 图 表 为 核心 对 象 ,构建 适用 于 不 同类 
型 不 同 领 域 .不 同 问题 解决 的 学 术 图 表 知 识 单元 语义 
表示 模型 和 知识 属性 体系 ,采用 各 类 知识 单元 语义 关 
联 的 知识 组 织 方法 ,构建 学 术 图 表 应 用 本 体 、 领 域 本 
体 、 知 识 图 谱 等 。 基 于 语义 表示 模型 应 用 语义 标注 技 
术 , 建 设 学 术 图 表 基 础 语料库 和 知识 库 。 

5.3 以点带面 ,开发 新 型 学 术 图 表 知识 发 现 应 用 

知识 服务 是 知识 发 现 的 价值 体现 ,而 知识 发 现 应 
用 是 学 术 图 表 知识 服务 快速 融入 、 快 速 扩展 的 实现 途 
径 。 

学 术 图 表 检 索 应 用 是 学 术 图 表 知识 服务 的 基础 和 
优先 选择 。 目 前 国内 外 相关 数字 学 术 提 供 商 如 PMC, 
ProQuest .CNKI 等 ,都 以 学 术 图 表 检 索 为 切入 点 推广 学 
术 图 表 知识 服务 应 用 。 学 术 图 表 检 索 应 结合 语义 知识 
组 织 、 检 索 结 果 的 多 重 因子 排序 .智能 推荐 计算 等 技术 
打造 学 术 图 表 语 义 智能 发 现 引擎 。 

学 术 图 表 自 动 摘 要 不 仅 是 辅助 科研 人 员 快 速 掌握 
文献 内 核心 内 容 筛选 所 需 文献 的 重要 服务 ,也 是 将 
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究 进 展 []]. 图 书 情报 工作 ,2021 ,65(23 ) :136 - 148. 


体 文献 知识 转换 为 自然 语言 表述 的 模块 化 知识 的 重要 
支撑 ,进而 支撑 模块 化 知识 重组 个 性 化 知识 串联 服 
务 。 


站 全 知识 服 
F ,还 能 成 为 科技 创新 的 重要 支撑 。 学 术 图 表 智 能 问 
答 及 推理 能 够 大 范围 扩展 学 术 知 识 在 日 常生 活 应 用 ， 
例如 基于 地 区 历史 日 照 或 降雨 统计 学 术 图 表 , 不 仅 能 
预测 气象 ,还 能 提供 农作物 形态 .产量 .虫害 发 生 等 内 
AS AN H HR AUER EK o 

近年 来 ,学 术 图 表 的 不 当 使 用 成 为 学 术 诚 信和 领域 
关注 的 焦点 之 一 。 学 术 图 表 查 重 在 学 术 诚 信和 领域 大 有 
建树 。 基 于 学 术 图 表 的 细 粒 度 语 义 标 注 及 图 像 视 觉 相 
似 度 计算 等 技术 ,构建 学 术 图 表 查 重 系统 ,能 在 一 定 程 
度 上 防止 学 术 图 表 的 不 正规 重用 及 数据 造假 。 


| 


C nttvci ocn 融合 背景 下 ,学 术 图 表 知识 发 现 是 
SES Sc PUR BUM TE 环 ,提供 除 文本 知识 发 现 
儿 衣 的 知识 发 现 方式 。 当 前 学 术 图 表 对 象 及 文本 的 识 
中 获取 ,学术 图 表 信息 表示 及 标注 学 术 图 表 分 类 和 
SEBS ERA SAL EE RAR ALR PS 
EEA FL MEU °F RAEI 看 义 检索 .学术 图 表 摘 要 、 
学 民国 表 知识 问答 等 新 型 知识 发 现 服务 也 正 逐步 开 
展 “面向 未 来 ,我 们 应 当 完善 学 术 图 表 语 义 知识 组 织 
4s .构建 专门 的 学 术 图 表 语义 知识 库 加快 开 发 新 型 


学 本 图表 知识 发 现 应 用 、 推 动 学 术 图 表 知 上 抽取 升级， 
从 痢 提 升 科研 人 员 科学 发 现 及 知识 创造 效能 ,推动 数 
PA UR EU TE. 
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The Technical Framework and Research Progress of Knowledge Discovery 
in Academic Figures and Tables 
Ding Pei 
Shenzhen University Library , Shenzhen 518060 

Abstract: | Purpose/significance | Under the background of deep integration of scientific resources, knowledge 
discovery of academic figures and tables provides a new way of knowledge discovery besides text knowledge discovery. 
Knowledge discovery of academic figures and tables is an important segment in document knowledge discovery perfec- 
tion, it improves the efficiency of scientific discovery and knowledge creation of researchers and promotes the upgrade 
of knowledge service of digital library. | Method/process | This paper sort out the evolution of knowledge discovery 
of academic figures and tables, demonstrated its technical framework in detail and proved that the knowledge discov- 
ery technology of academic figures and tables had been gradually mature. Combined with knowledge discovery appli- 
cation service with academic charts, this paper found that knowledge discovery of academic figures and tables could 
support scientific and technological innovation activities in many ways. | Result/conclusion | Looking into the fu- 
ture, we need to; attach importance to the knowledge discovery of academic figures and tables and integrate it into 
the literature knowledge discovery system; perfect the semantic knowledge organization system of academic figures and 
tables and build a special semantic knowledge base of academic figures and tables; develop new knowledge discovery 
applications for academic figures and tables. 
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